PSI-BLAST

На главную страницу семестра

Поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt

Параметры программы blastp:
  1. Учет особенностей аминокислотного состава (Compositional adjustments) - No adjustment (значение по умолчанию);
  2. Фильтрование областей низкой сложности - да (значение по умолчанию, галочка);
  3. Максимальное значение E-value - 10 (значение по умолчанию).
  4. Максимальное количество находок (Number of Descriptions) 1000.

    Таблица 1. Поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt.

      Кол-во E-value лучшей находки Название лучшей находки (ID ) % идентичности Длина выравнивания
    Всего находок 117 5e-82 LGB1_LUPLU 100% 154
    В бактериях (Bacteria) 36 1e-06 HMP_RHIME 29% 117
    В Escherichia coli K-12 0  -  -  -  -
    В животных(Metazoa) 26 2e-06 NGB_BRARE 25% 141
    В человеке 3 5.8 CRNL1_HUMAN 28% 78


    Гомологичных белков у кишечной палочки найдено не было, а по человеку нашлось три предполагаемых гомолога, которые имели большое значение E-value, тем более, что при более подробном просмотре белки эти не очень похожи на гомологов.


    Итерактивный поиск гомологов LGB1_LUPLU(P02239) в БД SwissProt

    Параметры программы брались те же, что и при предыдущем поиске.

    Таблица 2. Итерактивный поиск гомологов LGB1_LUPLU(P02239) в БД SwissProt c помощью программы PSI-BLAST.


    Номер итерации
    Бактерии
    Животные
    Характеристика лучшей находки среди белков
    Escherichia coli, K-12
    Homo sapiens sapiens
    Кол-во
    Новые
    Кол-во
    Новые
    Название
    E-value
    % идентичности
    Длина выравнивания
    Название
    E-value
    % идентичности
    Длина выравнивания
    1
    21 (36) - 5 (26) - - - - - CRNL1_HUMAN 5.8 28% 78
    2
    38 (50) 17 332 (673) 327 HMP_ECO57 1e-29 20% 148 NGB_HUMAN 2e-19 21% 143
    3
    38 (48) - 879 547 HMP_ECO57 7e-28 20% 148 HBG2_HUMAN 4e-45 18% 150
    4
    38(52) - 884 5 HMP_ECO57 8e-23 20% 143 HBE_HUMAN 7e-54 17% 154
    5
    38(52) - 884 - HMP_ECO57 2e-22 19% 143 HBE_HUMAN 7e-54 17% 154

    Примечание:

    Белок CRNL1_HUMAN имеет значение e-value больше порогового, и потому, в данном рассмотрении может не учитываться.
    Отчет:
    1. PSI-BLAST можно использовать для поиска гомологов (как разошедшихся недавно в эволюции, так и довольно далеких), при работе без итераций эта программа работает, как обычный BLASTp и мы можем увидеть довольно близких гомологов, но с каждой итерацией поиск расширяется, что позволяет нам найти все более и более далекие последовательности. Так же эта программа ищет белки, которые возможно разошлись в эволюции и выполняющие различные функции, а может быть наоборот различные по происхождению белки, но выполняющие сходные функции.

    2. Первая итерация по своей сути есть данные которые мы получаем при использовании программы BLASTp. Эти данные даются нам, по-видимому, для того, чтобы на этом этапе мы могли выбрать определенные таксоны для дальнейшего исследования.

    3. На мой взгляд, в данном задании нам удалось найти много гомологов данного белка, которые мы не могли найти просто при помощи программы BLASTp, мы могли заметить что на каждом этапе итераций появлялись все новые и новые гомологи (если судить по названиям ID белков), которые принадлежали разным систематическим группам (даже различным царствам). Как мы можем видеть ( данные получены из базы данных Pfam ), практически все белки, которые мы получали на разных итерациях содержали домен Globin, который содержится в большом количестве белков, относящихся к одному хорошо изученному семейству ( туда входят гемоглобины и миоглобины из животных, а так же леггемоглобины из растений, флавгемоглобины из бактерий ), то есть мы получили огромное множество белков, которые, в принципе, можно назвать гомологами, так как все они участвуют в связывании кислорода. Изначально мы имели белок растений, но с каждой итерацией все возрастало число белков из бактерий и животных. Обычным BLASTp мы, конечно, не смогли бы так далеко заглянуть в пути эволюции.

    4. В этом задании мы прослеживали для двух организмов, что происходило на разных итерациях, при этом для кишечной палочки белок не менялся, а у человека белки в ходе итераций изменялись, это дает нам то, что мы можем проследить, как итерации влияют на один и тот же белок, а так же почему менялись белки у человека.
      Начнем с кишечной палочки, в ходе итераций значительно уменьшалось значение e-value при этом практически не изменялся процент идентичности, и немного падала длина выравнивания. Главное что нас интересует, почему увеличивалось значение e-value, делов том, что каждый раз при итерации создавался новый PSSM профиль, при этом создание учитывало все последовательности, которые получились (и их e-value не превышало порогового), размер банка при этом, конечно, оставался прежним, но вероятность нахождения по такому пррофилю возрастала, что соответствует увеличению e-value.
      Для человека, мы можем проследить следующее, длина выравнивания увеличивается, но при этом значение значение e-value и процент идентичности уменьшались. Надо сказать, что первый белок указанный в таблице вообще не является гомологом белка LGB1_LUPLU (просто это вообще большой белок и, возможно поэтому он нашелся, да и e-value у него выходит за пороговый предел). В данном случае, все так же объясняет составление PSSM профиля, который придает больший вес консервативным участкам домена (которые как раз и определяют функциональное значение), поэтому после итерации эти белки могут выйти на первую позицию (до этого им, по-видимому, мешали какие то незначимые участки), подтверждением этому может служить то, что процент идетичности уменьшается, и значения e-value уменьшалось, а счет выравнивания увеличивался.

    Дополнительные вопросы

    1. Возможны 2 стратегии. Первая состоит в том, чтобы на каждой итерации вести поиск по всем организмам. Вторая состоит в том, чтобы после первой итерации отфильтровать находки по интересному для Вас таксону, и затем запустить следующие итерации. Конечно, при этом результаты могут отличаться, так как в первом случае составляется матрица PSSM для всех организмов, и по ней ведется поиск, а во втором случае матрица PSSM составляется только для интересующего нас таксона, возможно мы при этом получим большее число гомологов принадлежащих исследуемому типу, чем в предыдущем случае.

    2. Аминокислотные остатки, контактирующие с гемом:
      • NGB_HUMAN - His64, His96
      • HBG2_HUMAN - His63, His92
      • HBE_HUMAN - His63, His92
      • HMP_ECO57 - His85.
      • LGB1_LUPLU - His63, His97
      Как мы можем видеть с гемом соединяется именно гистидин, причем это прослеживается по разным царствам, кроме того остаток расположен на примерно определенном месте (по-видимому, и в пространстве), все это говорит о большой консервативности гистидина по данным позициям, и при нарушении таковой структуры произойдет очень сильная мутация, которая не позволит белку соединяться с гемом, а значит белок потеряет способность связывать кислород.
    Здесь записаны матрицы PSSM (position-specific scoring matrix - позиционно специфическая матрица весов), Понять что закодировано сложно, нужны специальные программы. Вообще PSSM представляет собой таблицу, в которой определенные цифры определяют вероятность существования каждой аминокислоты на каждом месте в последовательности.


    ©Метелев Михаил